Language:

Search

Các nhà nghiên cứu này đã sử dụng các câu hỏi Câu đố Chủ nhật của NPR để đánh giá 'lý luận' mô hình

  • Share this:
Các nhà nghiên cứu này đã sử dụng các câu hỏi Câu đố Chủ nhật của NPR để đánh giá 'lý luận' mô hình

Chủ nhật hàng tuần, người dẫn chương trình NPR Will Shortz, bậc thầy về trò chơi ô chữ của The New York Times, có thể đố vui với hàng nghìn người nghe trong một phân đoạn dài có tên là Câu đố Chủ Nhật. Mặc dù được viết để có thể giải được mà không cần quá cần biết trước, nhưng những câu đố hóc búa thường là thử thách ngay cả đối với những thí sinh có kỹ năng cao.

Đó là lý do tại sao một số chuyên gia cho rằng đây là một cách đầy hứa hẹn để kiểm tra giới hạn khả năng giải quyết vấn đề của AI.

Trong một nghiên cứu gần đây, một nhóm các nhà nghiên cứu đến từ Cao đẳng Wellesley, Cao đẳng Oberlin, Đại học Texas ở Austin, Đại học Đông Bắc, Đại học Charles và công ty khởi nghiệp Cursor đã tạo ra một điểm chuẩn AI bằng cách sử dụng các câu đố từ các tập phim Câu đố Chủ nhật. Nhóm cho biết thử nghiệm của họ đã phát hiện ra những hiểu biết sâu sắc đáng ngạc nhiên, chẳng hạn như các mô hình lý luận — mô hình o1 của OpenAI, cùng với các mô hình khác - đôi khi `8220;bỏ cuộc” và đưa ra những câu trả lời mà họ biết là không đúng.

“Chúng tôi muốn phát triển một chuẩn mực cho những vấn đề mà con người có thể hiểu được chỉ với kiến ​​thức tổng quát” Arjun Guha, giảng viên khoa học máy tính tại Northeastern và là một trong những đồng tác giả của nghiên cứu, nói với TechCrunch.

Ngành công nghiệp AI hiện đang gặp một chút khó khăn về điểm chuẩn. Hầu hết các bài kiểm tra thường được sử dụng để đánh giá các mô hình AI đều khám phá các kỹ năng, chẳng hạn như năng lực trả lời các câu hỏi khoa học và toán cấp tiến sĩ, không liên quan đến người dùng bình thường. Trong khi đó, nhiều điểm chuẩn — thậm chí điểm chuẩn được công bố tương đối gần đây — đang nhanh chóng đạt đến điểm bão hòa.

Ưu điểm của trò chơi đố vui trên đài phát thanh công cộng như Câu đố Chủ nhật là nó không kiểm tra kiến ​​thức bí truyền và các thử thách được diễn đạt sao cho các mô hình không thể sử dụng 'trí nhớ thuộc lòng'; để giải quyết chúng, Guha giải thích.

“Tôi nghĩ điều khiến những vấn đề này trở nên khó khăn là thực sự rất khó để đạt được tiến bộ có ý nghĩa đối với một vấn đề cho đến khi bạn giải quyết được nó — đó là khi mọi thứ kết hợp với nhau cùng một lúc,” Guha nói. “Điều đó đòi hỏi sự kết hợp giữa hiểu biết sâu sắc và quá trình loại bỏ.”

 

Tất nhiên, không có điểm chuẩn nào là hoàn hảo. Câu đố Chủ nhật chỉ tập trung vào Hoa Kỳ và bằng tiếng Anh. Và vì các câu đố được cung cấp công khai nên những người mẫu được đào tạo về chúng có thể “gian lận” theo một nghĩa nào đó, mặc dù Guha nói rằng anh ấy chưa thấy bằng chứng nào về điều này.

“Các câu hỏi mới được đưa ra hàng tuần và chúng tôi có thể mong đợi những câu hỏi mới nhất sẽ thực sự không được nhìn thấy,” anh ấy nói thêm. “Chúng tôi dự định giữ cho điểm chuẩn luôn mới và theo dõi hiệu suất của mô hình thay đổi như thế nào theo thời gian.”

Về các nhà nghiên cứu’ điểm chuẩn, bao gồm khoảng 600 câu đố Câu đố Chủ nhật, các mô hình suy luận như o1 và R1 của DeepSeek vượt xa các mô hình còn lại. Các mô hình lý luận tự kiểm tra kỹ lưỡng thông tin thực tế trước khi đưa ra kết quả, điều này giúp họ tránh một số cạm bẫy thường gây khó khăn cho các mô hình AI. Sự đánh đổi là các mô hình suy luận mất nhiều thời gian hơn một chút để tìm ra giải pháp — thường lâu hơn từ vài giây đến vài phút.

Ít nhất một mô hình, R1 của DeepSeek, đưa ra các giải pháp mà nó biết là sai đối với một số câu hỏi Câu đố Chủ nhật. R1 sẽ nêu nguyên văn “Tôi bỏ cuộc,” theo sau là một câu trả lời sai được chọn dường như ngẫu nhiên — hành vi mà con người này chắc chắn có thể liên quan đến.

Các mô hình đưa ra những lựa chọn kỳ lạ khác, chẳng hạn như đưa ra một câu trả lời sai chỉ để rút lại ngay lập tức, cố gắng tìm ra câu trả lời hay hơn và lại thất bại. Họ cũng bị mắc kẹt trong “suy nghĩ” mãi mãi và đưa ra những lời giải thích vô nghĩa cho các câu trả lời, hoặc họ đưa ra câu trả lời đúng ngay lập tức nhưng sau đó lại tiếp tục xem xét các câu trả lời thay thế mà không có lý do rõ ràng.

“Đối với những vấn đề khó khăn, R1 nói theo đúng nghĩa đen rằng nó đang ‘thất vọng,’” Guha nói. “Thật buồn cười khi thấy một người mẫu mô phỏng những gì con người có thể nói. Vẫn còn phải xem ‘thất vọng’ trong lý luận có thể ảnh hưởng đến chất lượng của kết quả mô hình.”

Điểm chuẩn NPR

R1 đang “thất vọng” cho một câu hỏi trong bộ thử thách Câu đố Chủ nhật. Credits:Guha et al.

Mô hình hoạt động tốt nhất hiện nay trên điểm chuẩn là o1 với số điểm 59%, tiếp theo là o3-mini được phát hành gần đây được đặt ở mức “nỗ lực lý luận” (47%). (R1 đạt 35%.) Trong bước tiếp theo, các nhà nghiên cứu dự định mở rộng thử nghiệm sang các mô hình suy luận bổ sung mà họ hy vọng sẽ giúp xác định các lĩnh vực mà các mô hình này có thể được nâng cao.

Điểm chuẩn NPR

Điểm số của các mô hình mà nhóm đã kiểm tra dựa trên điểm chuẩn của họ. Tín dụng hình ảnh:Guha và cộng sự.

“Bạn không cần bằng tiến sĩ để giỏi lý luận, vì vậy có thể thiết kế các tiêu chuẩn lý luận mà không yêu cầu kiến ​​thức ở cấp độ tiến sĩ,” Guha nói. “Một điểm chuẩn với khả năng truy cập rộng hơn cho phép nhiều nhà nghiên cứu hiểu và phân tích kết quả hơn, từ đó có thể dẫn đến các giải pháp tốt hơn trong tương lai. Hơn nữa, khi các mô hình tiên tiến ngày càng được triển khai trong những môi trường có ảnh hưởng đến mọi người, chúng tôi tin rằng mọi người sẽ có thể trực cảm được những mô hình này là gì — và không — có khả năng gì.”

Tech Crunch